BOÎTE A OUTILS 4

La dernière étape de cette boîte à outils est la visualisation des patrons syntaxiques extraits dans la Boîte à Outils 3 afin de réaliser une analyse textométrique. Pour chaque rubrique il existe une liste de tous les groupes de formes qui correspondent aux patrons tels que NOM_PRP_NOM, NOM_ADJ et NOM_NOM.

La visualiation se fait par un programme qui s'appelle patron2graphe.exe. Ce dernier prend en entrée un fichier patron, l'encodage de ce fichier et eventuellemnet un fichier motif.

patron2graphe.exe "encodage" fichier_patron

Voici un exemple: ./patron2graphe.exe "iso-8859-1" INTERNATIONAL.txt

Cliquez ici pour visualiser le graphe International

Il est clair que ce resultat ne peut être exploitable en vue d'une analyse textométrique. Le grand nombre d'informations soumis au programme empèche cet analyse. Il est donc nécessaire d'affiner notre recherche en fournissant un fichier motif.

Voici quelques exemples de motifs appliqués sur certaines des rubriques :



Rubrique: Politique

MOTIF=(\bpour\b)|(\bcontre\b)

./patron2graphe.exe "utf-8" POLITIQUE.xml-extract-NOM_PRP_NOM.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe Politique

Le choix de chercher les expressions contenant les mots 'pour' et 'contre' est intuitif étant donné les différences de points de vue qui existent dans le monde politique. Dans le but d'avoir une vue globale de ces points de vue au fil de l'année 2013, un affichage de ces expressions et une distribution plus lisible permet de les voir. Cependant, il est évident que la plupart des usages des mots sont un usage banal des prépositions mais pas seulement parce qu'on trouve des occurrencese qui font allusion au monde politique comme par exemple les noms des hommes politiques, le mariage pour tous et la justice.


Rubrique: Economie

MOTIF=(\b[Ee]urope\b)|(\bcrise\b)

./patron2graphe.exe "utf-8" ECONOMIE.xml-extract-NOM_ADJ.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe Economie

MOTIF=(\b[Ee]urope\b)|(\bcrise\b)

./patron2graphe.exe "utf-8" ECONOMIE.xml-extract-NOM_PRP_NOM.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe Economie

Dans le cas de la rubrique Économie, nous avons analysé les deux types de fichiers ; NOM_ADJ et NOM_PRP_NOM. Pour les NOM_ADJ, on remarque que les adjectifs les plus courants sont ceux de nationalité, puis viennent ceux qui qualifient les différents types de crise. On trouve très peu d'occurrences pour 'Europe'. Pour les NOM_PRP_NOM, nous pouvons noter que les termes employés sont relativement neutres.


Rubrique: International

MOTIF=(\bmilitaire\b)|(\bprésident\b)|(\bcrise\b))

./patron2graphe.exe "utf-8" INTERNATIONAL.xml-extract-NOM_ADJ.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe International

Les mots les plus courants de cette rubrique sont: 'militaire', 'crise' et 'président'. On remarque que pour le mot « miliaire » et « président », nous obtenons encore une fois une majorité de nationalité. Pour ce qui est de crise, nous avons les différents types de crises de l’année 2013.


Rubrique: Société

MOTIF=(\bpour\b)|(\bcontre\b)

./patron2graphe.exe "utf-8" SOCIETE.xml-extract-NOM_PRP_NOM.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe Société

On remarque que, même si il y a peu de « contre », les termes employés dans la partie «pour » relèvent plus souvent de condamnation ou de fautes pénales, que de réelles opinions sur un sujet.


Rubrique: Sport

MOTIF=(\b[Ff]ootball.*?\b)

./patron2graphe.exe "utf-8" SPORT.xml-extract-NOM_PRP_NOM.txt motif-utf8.txt

Cliquez ici pour visualiser le graphe Sport


Cliquez ici pour revenir à la page d'accueil